Speech representation learning has improved both speech understanding and speech synthesis tasks for single language. However, its ability in cross-lingual scenarios has not been explored. In this paper, we extend the pretraining method for cross-lingual multi-speaker speech synthesis tasks, including cross-lingual multi-speaker voice cloning and cross-lingual multi-speaker speech editing. We propose a speech-text joint pretraining framework, where we randomly mask the spectrogram and the phonemes given a speech example and its transcription. By learning to reconstruct the masked parts of the input in different languages, our model shows great improvements over speaker-embedding-based multi-speaker TTS methods. Moreover, our framework is end-to-end for both the training and the inference without any finetuning effort. In cross-lingual multi-speaker voice cloning and cross-lingual multi-speaker speech editing tasks, our experiments show that our model outperforms speaker-embedding-based multi-speaker TTS methods. The code and model are publicly available at PaddleSpeech.
translated by 谷歌翻译
对于人工智能系统来说,在低计算成本的情况下实现准确的视频识别是一项挑战。基于自适应推理的有效视频识别方法通常会预览视频,并专注于显着零件以降低计算成本。大多数现有作品都集中在复杂的网络学习,并具有基于视频分类的目标。以所有框架为正样本,其中很少有人关注积极样本(显着框架)和负面样本(非空位框架)之间的歧视。为了填补这一空白,在本文中,我们提出了一个新型的非高度抑制网络(NSNET),该网络有效地抑制了非征力框架的响应。具体而言,在框架级别上,可以生成可以区分显着框架和非空位框架的有效伪标签,以指导框架显着性学习。在视频层面上,在双重视频级别的监督下都学会了一个时间关注模块,这些模块既是对突出表示和非偏心表示形式。从两个两个级别的显着度测量都合并以利用多粒性互补信息。在四个众所周知的基准上进行的广泛实验验证了我们的NSNET不仅实现了最先进的准确性效率折衷,而且比最先进的推理速度要快得多(2.4〜4.3倍) - 艺术方法。我们的项目页面位于https://lawrencexia2008.github.io/projects/nsnet。
translated by 谷歌翻译
从单个视图图像重建以公制级别的人的3D姿势是一个几何上不成不良的问题。例如,我们不能从单个视图图像测量人对相机的确切距离,而无需额外的场景假设(例如,已知高度)。基于学习的基于学习方法通​​过重建3D构成来规避此问题。然而,有许多应用如虚拟遥读,机器人和增强现实,需要公制量表重建。在本文中,我们示出了与图像一起记录的音频信号,提供互补信息以重建人的度量3D姿势。关键识别是,作为横跨3D空间遍历的音频信号,它们与身体的交互提供有关身体姿势的度量信息。基于这种洞察力,我们介绍了一个称为姿势内核的时间不变传递函数 - 由身体姿势引起的音频信号的脉冲响应。姿势内核的主要属性是(1)其信封与3D姿势高度相关,(2)时间响应对应于到达时间,指示与麦克风的度量距离,(3)它是不变的场景几何配置。因此,它易于概括到看不见的场景。我们设计了一种多级3D CNN,其融合了音频和视觉信号,并学习以公制量表重建3D姿势。我们表明,我们的多模态方法在现实世界场景中产生了准确的公制重建,这是最先进的提升方法,包括参数网回归和深度回归。
translated by 谷歌翻译
关于对比学习的最新研究仅通过在医学图像分割的背景下利用很少的标签来实现出色的性能。现有方法主要关注实例歧视和不变映射。但是,他们面临三个常见的陷阱:(1)尾巴:医疗图像数据通常遵循隐式的长尾分配。盲目利用训练中的所有像素会导致数据失衡问题,并导致性能恶化; (2)一致性:尚不清楚分割模型是否由于不同解剖学特征之间的类内变化而学会了有意义但一致的解剖学特征; (3)多样性:整个数据集中的切片内相关性已得到明显降低的关注。这促使我们寻求一种有原则的方法来战略利用数据集本身,以发现不同解剖学观点的类似但不同的样本。在本文中,我们介绍了一种新型的半监督医学图像分割框架,称其为您自己的解剖结构(MONA),并做出了三个贡献。首先,先前的工作认为,每个像素对模型培训都同样重要。我们从经验上观察到,仅此单单就不太可能定义有意义的解剖特征,这主要是由于缺乏监督信号。我们通过使用更强大的数据增强和最近的邻居展示了学习不变的两个简单解决方案。其次,我们构建了一组目标,鼓励模型能够以无监督的方式将医学图像分解为解剖特征的集合。最后,我们在具有不同标记设置的三个基准数据集上的广泛结果验证了我们提出的MONA的有效性,该数据在不同的标签设置下实现了新的最新设置。
translated by 谷歌翻译
从图像中学习心脏运动中的时空对应关系对于理解心脏解剖结构的潜在动力学很重要。许多方法明确施加了平滑度约束,例如位移矢量字段(DVF)上的$ \ Mathcal {l} _2 $ NORM,而通常忽略转换中的生物力学可行性。其他几何约束要么正规化特定的感兴趣区域,例如在心肌上施加不可压缩性,要么引入其他步骤,例如在物理模拟的数据集上训练单独的基于网络的正规器。在这项工作中,我们提出了一个明确的生物力学知识,因为在所有心脏结构中对更通用的生物力学上可行的转化进行建模,而无需引入额外的训练复杂性,因此对预测的DVF进行了正则化。在2D MRI数据的背景下,我们验证了两个公开可用数据集的方法,并执行广泛的实验,以说明与其他竞争性正规化方案相比,我们提出的方法的有效性和鲁棒性。我们提出的方法可以通过视觉评估更好地保留生物力学特性,并使用定量评估指标显示分割性能的优势。该代码可在\ url {https://github.com/voldemort108x/bioinformed_reg}上公开获得。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
半eme被定义为人类语言的最低语义单元。半知识库(KBS)包含带有Sememes的单词的单词,已成功应用于许多NLP任务,我们相信,通过学习最小的含义单位,计算机可以更容易理解人类的语言。但是,现有的sememe kb仅基于手动注释,人类注释具有个人理解偏见,并且随着时间的流逝,词汇的含义将不断更新和改变,而人为的方法并不总是实用的。为了解决这个问题,我们提出了一种基于深群集网络(DCN)的无监督方法来构建半eme KB,您可以使用任何语言通过此方法来构建KB。我们首先学习多语言单词的分布式表示形式,使用缪斯在单个矢量空间中对齐它们,通过自我发项机制学习每个单词的多层含义,并使用DNC来群集半eme。最后,我们仅使用英语的10维半度空间完成了预测。我们发现,低维空间仍然可以保留SEMEMES的主要特征。
translated by 谷歌翻译
团队是人类成就的核心。在过去的半个世纪中,心理学家已经确定了五个跨文化有效的人格变量:神经质,外向性,开放性,尽职尽责和同意。前四个与团队绩效显示一致的关系。然而,令人愉快的(和谐,无私,谦虚和合作)表现出与团队绩效的无关紧要和高度可变的关系。我们通过计算建模解决这种不一致。基于代理的模型(ABM)用于预测人格特质对团队合作的影响,然后使用遗传算法来探索ABM的限制,以发现哪种特征与最佳和最差的表现相关,以解决与与最差的团队相关的问题,以解决与问题有关的问题。不同级别的不确定性(噪声)。探索所揭示的新依赖性通过分析迄今为止最大的团队绩效数据集的先前未观察到的数据来证实,其中包括593个团队中的3,698个个人,从事5,000多个没有不确定性的小组任务,在10年内收集了不确定性。我们的发现是,团队绩效和同意之间的依赖性受到任务不确定性的调节。以这种方式将进化计算与ABM相结合,为团队合作的科学研究,做出新的预测以及提高我们对人类行为的理解提供了一种新方法。我们的结果证实了计算机建模对发展理论的潜在实用性,并阐明了随着工作环境的越来越流畅和不确定的启示。
translated by 谷歌翻译
最近已经为医疗图像分割任务创建了许多医疗数据集,并且自然质疑我们是否可以使用它们来依次训练(1)在所有这些数据集中表现更好的单个模型,并且(2)良好的概括和传输更好到未知的目标站点域。先前的工作通过在多站点数据集上共同训练一个模型来实现这一目标,该模型平均实现了竞争性能,但是这种方法依赖于所有培训数据的可用性的假设,从而限制了其在实际部署中的有效性。在本文中,我们提出了一个称为增量转移学习(ITL)的新型多站点分割框架,该框架以端到端的顺序方式从多站点数据集中学习模型。具体而言,“增量”是指顺序构建的数据集,而“转移”是通过利用每个数据集上嵌入功能的线性组合的有用信息来实现的。此外,我们介绍了ITL框架,在该框架中,我们在其中训练网络,包括具有预先训练的权重和最多两个分段解码器头的站点不合时宜的编码器。我们还设计了一种新型的站点级增量损失,以便在目标域上良好地概括。其次,我们首次表明利用我们的ITL培训计划能够减轻富有灾难性的遗忘问题,从而在渐进学习中遇到了挑战。我们使用五个具有挑战性的基准数据集进行实验,以验证我们的增量转移学习方法的有效性。我们的方法对计算资源和特定于领域的专业知识的假设最少,因此构成了多站点医学图像细分的强大起点。
translated by 谷歌翻译
心肌活力的评估对于患有心肌梗塞的患者的诊断和治疗管理是必不可少的,并且心肌病理学的分类是本评估的关键。这项工作定义了医学图像分析的新任务,即进行心肌病理分割(MYOPS)结合三个序列的心脏磁共振(CMR)图像,该图像首次与Mycai 2020一起在Myops挑战中提出的。挑战提供了45个配对和预对准的CMR图像,允许算法将互补信息与三个CMR序列组合到病理分割。在本文中,我们提供了挑战的详细信息,从十五个参与者的作品调查,并根据五个方面解释他们的方法,即预处理,数据增强,学习策略,模型架构和后处理。此外,我们对不同因素的结果分析了结果,以检查关键障碍和探索解决方案的潜力,以及为未来的研究提供基准。我们得出结论,虽然报告了有前途的结果,但研究仍处于早期阶段,在成功应用于诊所之前需要更深入的探索。请注意,MyOPS数据和评估工具继续通过其主页(www.sdspeople.fudan.edu.cn/zhuangxiahai/0/myops20 /)注册注册。
translated by 谷歌翻译